Konwledge-Graphy

知识图谱经由2015年Google推出后,和许多跨学科跨领域的专业技术一样,经历了一段不温不火找落地应用场景的时期,近年来随着集中式数据中心的兴起,特别是AI领域中更多高效新算法的涌出,迎来了更多商业化应用的落地,营销方面的推荐、搜索、智能问答等,金融领域的风控、反洗钱等,到后期大型商用品、工业用品、基础设施的精细化、智能化运维服务等,但凡需要使用涉及到现实世界中实体及实体间关联关系的数字化应用场景像雨后春笋般浮现,也促进和加快了各行各业中知识图谱的春暖花开。

知识图谱是实体或概念相互连接而成的语义网络,一度被认为是让计算机拥有认知能力的最有效途径之一,其通常由实体(点)和关系(边)组成。目前来看,知识图谱的商业价值体现尚集中在语义搜索、智能问答、营销推荐等领域,同时它也渐渐成为AI领域中自然语言处理(NLP)分支下重要的基础设施。


知识图谱的构建过程一般包括:

实体融合

实体融合解决的是什么问题呢?以“王劲松”这个名字来说,如何判断这个王劲松是演员王劲松,还是老师王劲松,或者是院长王劲松?不同地方收录的这三个人的资料也可能不太相同,如何将这些格式迥异的信息整合为一个实体呢?
一个融合做得好的泛领域知识图谱(“好”的定义是数据质量高、信息覆盖丰富等)应该通过抽取和融合这些多源异构并充满歧义的信息,表示成计算机可理解的融合知识,可以全方位的展示一个指定实体的“全景图”,不仅有利于对信息的理解,更是对知识推理和计算机认知能力的提升有很好的促进作用。然而这里做知识融合的难点在于信息来源多,意味着数据表示、数据形态、数据质量和数据丰富度的层次不齐,并且常有一词多义和多词一义的情况。

通常实体融合的步骤如下:

  1. 清洗对齐(异构数据转换为同构数据,包括数据规整、噪音去除等)
  2. 实体对齐(判断两个实体是否为同一个,包括多源实体信息的合并和补充)
  3. 属性融合(对齐的实体仍包括多源的属性和关系,需要纠错和择优)

最关键的部分就在于如何做到实体对齐,当前业界有以下几种方案: